import warnings

warnings.filterwarnings('ignore')

from sklearn.naive_bayes import GaussianNB#引入朴素贝叶斯模型（这里用的是高斯贝叶斯分类器）
X = [[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]]
y = [0, 0, 0, 1, 1]

model = GaussianNB()
model.fit(X, y)

print(model.predict([[5, 5]]))

[0]

#读取数据

import pandas as pd
df = pd.read_excel('肿瘤数据.xlsx')
print(df.head())

print(df.columns)

'''
columns:

  最大周长: 所有肿瘤中周长最大的三个值的平均值

  最大凹陷度: 所有肿瘤中凹陷度最大的三个值的平均值

  最大面积: 所有肿瘤中面积最大的三个值的平均值

  最大半径: 所有肿瘤中半径最大的三个值的平均值

  平均灰度值: 所有肿瘤图像灰度值的平均值

  肿瘤性质: 0代表恶性, 1代表良性


'''

     最大周长   最大凹陷度    平均凹陷度    最大面积   最大半径  平均灰度值  肿瘤性质
0  184.60  0.2654  0.14710  2019.0  25.38  17.33     0
1  158.80  0.1860  0.07017  1956.0  24.99  23.41     0
2  152.50  0.2430  0.12790  1709.0  23.57  25.53     1
3   98.87  0.2575  0.10520   567.7  14.91  26.50     0
4  152.20  0.1625  0.10430  1575.0  22.54  16.67     0
Index(['最大周长', '最大凹陷度', '平均凹陷度', '最大面积', '最大半径', '平均灰度值', '肿瘤性质'], dtype='object')

'\ncolumns:\n\n  最大周长: 所有肿瘤中周长最大的三个值的平均值\n\n  最大凹陷度: 所有肿瘤中凹陷度最大的三个值的平均值\n\n  最大面积: 所有肿瘤中面积最大的三个值的平均值\n\n  最大半径: 所有肿瘤中半径最大的三个值的平均值\n\n  平均灰度值: 所有肿瘤图像灰度值的平均值\n\n  肿瘤性质: 0代表恶性, 1代表良性\n\n\n'

# 划分特征变量和目标变量

X = df.drop(columns='肿瘤性质') 
y = df['肿瘤性质']

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)

from sklearn.naive_bayes import GaussianNB
nb_clf = GaussianNB()  # 高斯朴素贝叶斯模型
nb_clf.fit(X_train,y_train)

GaussianNB()

GaussianNB()

y_pred = nb_clf.predict(X_test)

print(y_pred)

[1 0 1 0 1 0 0 0 1 1 1 0 0 1 1 1 1 1 1 0 1 1 0 1 0 1 1 0 0 0 0 1 0 0 1 1 0
 1 1 1 1 1 1 1 1 0 1 1 1 0 0 0 1 1 1 1 1 0 1 1 1 0 1 1 1 1 1 0 1 1 1 1 1 0
 1 0 1 1 1 0 1 0 1 0 1 1 0 1 0 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0
 1 1 1]

a = pd.DataFrame()

a['预测值'] = list(y_pred)
a['实际值'] = list(y_test)

print(a.head(10))

   预测值  实际值
0    1    1
1    0    0
2    1    1
3    0    0
4    1    0
5    0    0
6    0    0
7    0    0
8    1    1
9    1    1

from sklearn.metrics import accuracy_score
score = accuracy_score(y_pred = y_pred, y_true=y_test)

print(score)

0.9473684210526315

第六章朴素贝叶斯模型¶

6.1 朴素贝叶斯模型的算法原理¶

6.1.2 二维变量下的贝叶斯模型¶

6.1.4 朴素贝叶斯模型的简单代码实现¶

6.2 案例实战: 肿瘤预测模型¶

6.2.2 数据读取与划分¶

6.2.2.1 读取数据¶

6.2.2.2 划分特征变量和目标变量¶

6.2.3 模型的搭建与使用¶

6.2.3.1 划分训练集和测试集¶

6.2.3.2 模型搭建¶

6.2.3.3 模型预测与评估¶

第六章 朴素贝叶斯模型¶

6.1 朴素贝叶斯模型的算法原理¶

6.1.2 二维变量下的贝叶斯模型¶

6.1.4 朴素贝叶斯模型的简单代码实现¶

6.2 案例实战: 肿瘤预测模型¶

6.2.2 数据读取与划分¶

6.2.2.1 读取数据¶

6.2.2.2 划分特征变量和目标变量¶

6.2.3 模型的搭建与使用¶

6.2.3.1 划分训练集和测试集¶

6.2.3.2 模型搭建¶

6.2.3.3 模型预测与评估¶

第六章朴素贝叶斯模型¶